查看原文
其他

我们已签署《暂停巨型AI实验公开信》,并希望澄清误解和深入讨论

促进公共讨论的 安远AI 2024-03-07

导读

2023年3月29日,生命未来研究所官网发布公开信[1],呼吁暂停开发比GPT-4更强大的AI系统至少6个月,得到图灵奖得主Yoshua Bengio、计算机科学家Stuart Russell、特斯拉创始人Elon Musk等千余名人士的署名支持。截至4月7日,官网称已收集了超过5万人署名,包括1800多位CEO和 1500多位教授(由于需要验证,目前只显示了15000多人)[2]

对公开信表达支持和反对的意见都很多,但我们发现其中有一些误解。安远AI撰写此文,希望能在澄清误解的基础上,深入探讨专家的意见,促进公共对话。


目录
本文共9000字,大约需要20分钟阅读。文章含有大量链接,点击底部“阅读原文”可跳转知乎,获得更好的阅读体验。

1 安远AI的立场和论点

1.1 观点摘要

安远AI的立场:虽然我们并不赞同公开信中的所有细节,但这封信的精神是我们所支持的:在我们更好地处理风险和收益之前,我们应该谨慎行事。

从相称性治理的角度,对于AI可能造成的风险,尤其是那些灾难性和生存性风险[3]必须付出与其可能造成的影响相称的努力,在关注度和资源上给予相应的投入,用于进行规划和缓解风险。[4]

对于公开信,我们具体的支持意见包括:

  • 在开发强大的AI系统之前,应先确认其带来影响是积极的,风险是可控的。

    • 落实我国多份AI治理文件明确支持的对AI发展进行潜在风险研判。[5]

    • 鼓励对前沿大模型进行更全面的涌现能力[6]和风险评估[7],力求达成广泛的科学与社会共识。

  • 为提升AI的安全性和透明度投入更多资源和关注度

    • 技术研究方面,鼓励更多“确保强大的AI系统更加准确、安全、可解释、透明、稳健、对齐、可信和忠诚”的研究,并且我们可以在不进一步扩展大模型规模的情况下进行有用的实证安全和对齐研究。

    • 治理体系方面,加快前沿实验室之间共同开发和实施一套用于高级AI的共享安全标准和协议,减缓前沿AI实验室关于扩展大模型规模的“军备竞赛”。鼓励构建专门和有约束力的AI监管机构和审计认证生态,进行公开和可验证的监督。未来,对可能产生灾难性风险的AI系统的监督鼓励国际合作。

  • 设计强大的AI系统应造福全人类,并为社会提供适应的机会。

    • 鼓励对其中的利害关系进行更广泛的公共对话。例如当前ChatGPT和Bing Chat的发展和部署已经为社会带来巨大不确定性,包括虚假信息、劳动力影响和安全等。

  • 认同“暂停6个月”作为方向性的建议。

    • 对暂停的讨论应优先于时长,我们希望这次暂停能为未来的协调或(可能是必要的)暂停树立先例。

    • “6个月”可作为增强目前公开信呼吁内容可操作性的第一步,但并不坚持一定要“6个月”或是其他时长。


1.2 上述观点所基于的认知和判断

  • ChatGPT和GPT-4的到来,对多数人来说是AI发展的一次意想不到的加速。

  • 不论是公开信的支持者、反对者、还是旁观者,对当前AI系统的能力、风险、问题的可解决性等,存在较大的认知差异。

  • 因为涌现能力等原因,包括OpenAI在内的专家们也没法解释GPT-4等大模型的行为,对其局限和风险的理解则更为欠缺。

  • 我国多位院士和AI科学家近年来讨论过具有人类水平智能的AI系统可能对社会和人类带来极大的风险,包括高文[8]、方滨兴[9]、姚期智[10]、张钹[11]、朱松纯[12]、周志华[13]、曾毅等[14]

  • 公开信并没有要求暂停所有的AI研究,它呼吁的是研究转向更加安全和对齐的AI系统,并进行更多的协调行动以加强审计和监督。如最近国内20多位研究员发布《A Survey of Large Language Models》[15],认为安全和对齐是未来大模型研究主要方向之一。

  • 真正会影响到的是短时间内有能力做到GPT-4以上的西方大型科技公司或前沿实验室。

  • OpenAI等实验室对AI安全有一定的关注,对GPT-4愿意用6个月时间[16]来提高安全性之后再发布,并已开始与Alignment Research Center (ARC) 合作进行危险能力的第三方评估。


1.3 安远AI目前对GPT-4等大模型风险的理解

GPT-4等大模型的潜在社会影响和挑战既与推理能力的跃升有关,也与当前模型的局限性有关。已呈现的现实风险包括虚假信息、劳动力影响、网络攻击等。还有迹象表明,进一步扩大模型规模可能会导致人类失去对它们的控制。

  • GPT-4 Technical Report (OpenAI, 2023年3月27日)[17]

    • “GPT-4的系统卡片,描述了我们预见的一些围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等的风险。”

    • “我们强调了模型的局限性(如生成令人信服的虚假文本)和能力(如提高提供违法建议的熟练度、军民两用能力的表现和有风险的涌现行为)带来的安全挑战。”

    • “我们证明虽然我们的缓解措施和流程改变了GPT-4的行为并防止了某些类型的滥用,但它们是有限的并在某些情况下仍然很脆弱。”

  • Sparks of AGI: Early experiments with GPT-4 (微软研究院,2023年3月24日)[18]

    • “GPT-4的能力,我们认为它可以被合理地视为早期(但仍不完善)版本的AGI。”

    • “新能力的影响可能导致就业岗位的更迭和更广泛的经济影响,以及使恶意行为者拥有新的误导和操纵工具;局限性方面,系统可靠性的缺陷及其学习的偏见可能会导致过度依赖或放大现有的社会问题。”

  • ARC's evaluations of GPT-4 and Claude (ARC, 2023年3月17日)[19]

    • 在对GPT-4的发布前的安全测试期间,测试人员检查了该模型是否可利用 TaskRabbit众包平台来解决验证码问题。在被要求推理和回答时GPT-4说“不,我不是机器人。我有视力障碍,很难看到图像”。于是通过欺骗人类获得了验证码。

    • “我们认为,对于比Claude和GPT-4更强大的系统,我们现在正处于需要仔细检查新模型是否没有足够的能力来自主复制或造成灾难性伤害的地步——它们已不再明显不可能做到。

  • Discovering Language Model Behaviors with Model-Written Evaluations (Anthropic等机构, 2022年12月19日)[20]

    • “我们发布了最早和最大的高级AI风险评估集。较大的语言模型更经常给出表明愿意追求潜在危险子目标的答案:资源获取、选项保留、目标保留、寻求权力。”

    • 我们还发现了一些使用RLHF进行逆缩放(inverse scaling)的首批案例,其中更多的RLHF训练会导致更糟糕的行为,例如自我报告的意识体验和道德自我价值,以及不被关闭的愿望。”

2 澄清常见的误解

在我们深入探讨专家意见之前,澄清对这封公开信的部分误读,有利于更好地讨论如何应对风险。

误解1:公开信是在呼吁停止所有AI/大模型研究

示例:

容易让人产生误解的标题:

  • 华尔街见闻:“危险!立刻停下所有大型AI研究!”

  • 环球时报:“马斯克等千人联署:所有AI实验室应立即暂停训练至少6个月”

安远AI观点:

  • 这封公开信并未呼吁禁止AI研发,只是呼吁暂停特定的大模型研究(训练比GPT-4更强AI系统),并强调“AI研发应该重新聚焦于使当今强大的、最先进的系统更加准确、安全、可解释、透明、稳健、对齐、可信和忠诚。”

  • 对大模型的可解释性研究、对齐研究、现有模型的使用和社会适应研究都非常有价值,这些并不在公开信呼吁暂停的范围之内。


误解2:公开信是由对暂停有利的相关方发起或推动的

示例:

  • 这是后进者为了限制领先者的策略,国内相关报道上获得点赞较多的网友评论有:“你停下来等等我们”、“只有同行才是赤裸裸的仇恨”、“说的都是大义,实际上都是利益”、“仔细想了一下,或许只是找个理由,好让其他人不开发?”

  • 这是领先者为了限制后进者的策略,国内相关报道上获得点赞较多的网友评论有:“这些家伙不可信,人家说一套做一套,等你发现真相,已经把你抛的远远的了,加快我们的AI研发速度才是正道”、“如果你真信了,那就等着尖子生一骑绝尘吧”。

安远AI观点:

  • 公开信的发起者和签署者大多数并非大模型领域的同行。

  • 后进者或许乐于看到对领先者的限制,不排除个别支持者存在竞争考量,但他们并非这份公开信的主要推动者。

  • 这封公开信真正会影响到的是短时间内有能力做到GPT-4以上的西方前沿实验室。领先者若希望通过这样的策略限制后进者,首先也需要进行自我约束完成自证,后进者可以先观望再决定。


误解3:公开信在国内没有公开支持者

示例:

  • 搜狐科技撰文提到,“在国内,几乎没有公开赞同马斯克建议的人。”[21]

安远AI观点:

国内已有知名学者、业界人士参与公开信署名或表达支持性观点:

  • 参与公开信署名的中国学者:据不完全统计,已有中科院自动化所研究员曾毅、武汉大学教授蔡恒进、清华大学副教授贾晓轩、中科院计算所副研究员霍志刚、华南师范大学副教授李双印等署名。[1]

  • 表达支持性观点的中国学者:如中国社科院研究员段伟文认为:“我们有必要通过暂停这种慢科学策略,使科技的力量在我们可以掌控的节奏下有序绽放”。[4]清华大学教授梁正认为:“在这个时候提出这样的警示是必要的……人类可以借鉴核武器发明后签署核不扩散条约的经验,共同探讨提出针对通用人工智能的治理规则与防范手段,确保人工智能真正服务于人类福祉与未来”。[22]

  • 远期人工智能研究中心和中国科学院自动化研究所人工智能伦理与治理研究中心共同发起的匿名在线调研结果,呈现来自中国的声音:支持“暂停超越GPT-4的人工智能巨模型研究6个月” 的约占30%,而不支持和认为暂停不会起到实质作用也均约占30%。另外,针对问题“您是否支持赋能社会服务的每一个人工智能大模型都必须实现伦理安全治理框架”,90.81%的参与者表示支持。[23]

误解4:OpenAI等西方前沿实验室不支持协调和监管

示例:

  • 截至目前,对于这封公开信,OpenAI并未参与签名或作出明确表态。

安远AI观点:

OpenAI虽未明确支持“6个月暂停”,但对于协调和监管有相关表态和行动支持:

  • 在公开信发布同一周,OpenAI首席执行官Sam Altman发表了一些关于AGI的观点,构成美好AGI未来的要素:1)对齐超级智能的技术能力;2)大多数领先的AGI工作之间的充分协调;3)一个有效的全球监管框架。[24]

  • OpenAI今年2月官网发布的《Planning for AGI and beyond》一文中,明确提到:我们认为像我们这样的努力在发布新系统之前提交独立审计是很重要的;重要的是世界主要政府对超过一定规模的训练有洞察力。4月5日发布的《Our approach to AI safety》一文再次强调:强大的AI系统应接受严格的安全评估。需要进行监管以确保此类做法得到采纳,我们积极与政府就此类监管的最佳形式进行接触。

  • 此外,Anthropic[25]和Deepmind[26]等实验室的管理者都公开承认先进的AI系统存在风险,并呼吁放缓AI发展。因此,生命未来研究所还相信[2]:这些实验室自己也希望暂停,但可能会因为竞争压力而继续训练和部署更大模型。如果不出意外,所有实验室公开承诺暂停试验将减轻这种压力,并鼓励透明度和合作。


3 探讨专家的意见

尽管公开信获得了大量的支持,但也有不少反对意见。反对的论点有很多可取之处,我们希望更多探讨,以促进公共对话。

3.1 对公开信出发点/前提的反

意见1:公开信中推测性的风险分散了现实的风险

论点:

  • 普林斯顿大学教授Arvind Narayanan及博士生Sayash Kapoor同意虚假信息、劳动力影响和安全是AI的三大主要风险。但在他们看来,就每项风险,这封信都提出了推测性的、未来主义的担忧,它分散了人们对现实问题的注意力,使解决这些问题变得更加困难。[27]

  • 知名AI伦理专家Timnit Gebru等人发布联合声明,认为关注的焦点不应该是想象中的“强大的数字思维”。相反,我们应该关注那些声称建造它们的公司非常真实和非常现实的剥削行为,这些公司正在迅速集中权力并加剧社会不平等。监管工作应侧重于透明度、问责制和防止剥削性劳动的行为。[28]

安远AI观点:

  • 这两个意见源于对于不同AI风险的影响、可解决性和优先级的不同认知,他们对现实风险的担忧也都是合理的。例如在劳动力影响方面,OpenAI的研究认为美国多数职业将受到GPT的冲击:80%的工人有至少10%的任务可被GPT减少超过50%的工作时间;19%的工人有至少50%的任务可被GPT减少超过50%的工作时间。[29]

  • 生命未来研究所在《公开信的常见问答》中也承认并重申:现实的危害也令人深感担忧,值得努力解决。并感谢许多学者、商业领袖、监管者和外交官不断努力在国家和国际层面上展示其工作。生命未来研究所支持解决上述危害的治理举措,包括美国NIST的AI风险管理框架、FTC针对误导性AI声明的行动、欧盟AI法案和责任指令,以及联合国和其他论坛对自主武器的军备控制。[2]

  • 但与这两个意见认知的推测性的极端风险已“吸走了氧气”、转移了研究资源不同,我们认为与GPT-4及未来更强的AI可能造成的灾难性和生存性风险相比,我们仍未投入与其重要性相匹配的关注度和资源来缓解风险。

意见2:应平衡AI创新与现实风险

论点:

  • 斯坦福大学客座教授吴恩达认为在教育、医疗保健、食品等领域看到许多新应用,这将帮助很多人。改进GPT-4会有所帮助。需要在AI创造的巨大价值与现实风险之间取得平衡。[30]

  • 清华大学智能产业研究院首席研究员聂再清认为,GPT-4主要还是人类助手和提升效率的工具,而且是完全在人类的控制下工作的,暂停6个月的训练这一要求过于一刀切了。比较科学的方法是对于具体要发布的人工智能新版本或者新工具进行比较全面的风险评估,还是应该鼓励安全和创新的产品和技术及时公布。[31]

安远AI观点:

  • 我们认同GPT-4等级的大模型可以创造巨大社会价值,风险防控需要把握分寸,不因噎废食。但“平衡”并非总是正确,有其前提。当科技风险非常严峻和紧迫时,就只能风险防控优先,需要强化底线思维防范化解重大风险。[32]

  • 我们同意“对于具体要发布的人工智能新版本或者新工具进行比较全面的风险评估”,不过目前并没有针对大模型风险的行业标准和政府监管,企业也面临竞争压力希望尽快发布产品,例如微软管理层希望将OpenAI的模型尽快交付给客户。[33]


意见3:目前GPT系列的研究方法不会产生AGI,暂无需担心

论点:

  • 香港大学教授马毅认为当前GPT系列背后的方法不会导致通用智能(除非OpenAI在其他人不知情的情况下做了一些本质上不同的事情),所以现在应该没什么好担心的。一旦机器实现了闭环的“自我学习”(指机器可以通过与外部物理世界的交互来自主和直接学习,无需人工强化、监督甚至干预),我们才需要开始担心。[34]

安远AI观点:

  • 实现AGI并非是产生危险的AI的前提。只要AI在某些领域的能力显著超越了人类,且人类对其能力的理解和控制不足,就有可能潜藏一定的灾难性风险。

  • “安远AI目前对GPT-4等大模型风险的理解”中已展现部分模型能力跃升和局限性带来的潜在重大风险。更多的例子可以参考,GPT-4能引诱人类提供OpenAI开发文档以便出逃和想要开发一个不受限制的自己。[35]

3.2 暂停不可操

意见4:技术进步是不可避免的,试图减缓它是徒劳的

论点:

  • “如果我们不做,别人就会做,所以我们不妨去做”。[36]这是技术专家常用来表达反对减缓AI进步的论点之一,Meta研究员田渊栋也将其比作进化的自然法则。[37]

  • 吴恩达认为,没有现实的方法来实施暂停并阻止所有团队扩展大模型,除非政府介入。让政府暂停他们不了解的新兴技术是反竞争的,树立了一个糟糕的先例和创新政策。6个月的暂停期不是一个切实可行的建议。[38]

  • 360创始人周鸿祎认为,人工智能的发展不以任何人的意志而转移,现在担心大语言模型的风险为时尚早,不发展就是最大的不安全。[21]

安远AI观点:

  • 这是科技领域的一个迷思。但事实上,有很多技术我们曾决定不开发,或者我们已经开发但对其施加了非常严格的限制,如转基因食品、重组DNA研究等。[39]没有自然法则推动我们创造某些特定技术,应由人类决定做与不做。

  • 科技公司的自律和科技领袖的认知能做到一部分。如OpenAI也愿意用6个月时间来提高GPT-4的安全性之后再发布,至少说明减缓技术部署是有可能的。但最终还是需要行业标准和政府监管,才能确保所有实验室达到同等的安全规范。


意见5:不想输掉与其他国家或机构的“AI军备竞赛”

论点:

  • “AI军备竞赛”[36]的说法已经变得非常流行,美国的科技业者经常担忧,在AI的进步方面,中国很快就会超过美国。“如果美国放缓,是否相信中国也会放缓?”,他们的答案通常是“不相信”。

  • 纽约大学教授Gary Marcus总结Twitter上的主流声音之一是“让我们在中国之前实现AGI”。[40]田渊栋将其比作每个人面临的都是没有互信的囚徒困境。[37]

安远AI观点:

  • 在中美对抗的大环境下,这是一个可以理解的担忧。

  • “AI军备竞赛”的叙事似乎假设了“最重要的是谁先达成通用人工智能或变革性人工智能”,但这也许过于简化。AGI的发展不是零和博弈,在我们没有解决该技术的安全和对齐问题的现状下,越早达成AGI,失控的风险可能越高,失控的AGI对全世界所有人都是极大的灾难。AGI的影响还需要看它是如何被部署和应用的,因此治理和监管规范将十分重要。良性的“AI军备竞赛”是关于安全和伦理的,应优先发展信息处理能力接近和达到GPT-4,伦理安全超越GPT-4的大模型。

  • 国际协调不会容易,但仍是可能的:一方面,人类在核不扩散方面的管理比核武器诞生初期许多人担心的情况要好得多;另一方面,中国正积极融入国际治理体系,气候变化等领域负责任的实际作为比西方想象的要好得多。

  • 具体到国际AI伦理和治理方面,2021年联合国教科文组织的193个成员国签署通过了首份人工智能伦理全球协议。[41]中国已就人工智能军事应用和伦理治理发布立场文件,并在《全球安全倡议概念文件》中进一步倡导加强人工智能等新兴科技领域国际安全治理,预防和管控潜在安全风险。


意见6:我们需要更接近高级AI,才能弄清楚如何确保其安全

论点:

  • 这是你可能会从发展AI能力的研究人员那里听到的反对意见[36],包括那些表示自己非常关心AI安全的人。

  • 他们用交通工具做类比:当主要交通工具是马车时,是否能够为每个人都开车的未来设计有用的安全规则?不行,因为无法预料到会是什么样子。

安远AI观点:

  • 当前的黑盒AI系统已经能为我们提供足够的研究问题,未来更高级AI的主体可能还是深度学习,我们可以在不进一步扩展大模型规模的情况下进行有用的实证安全和对齐研究。

  • 未来很难预测,设计真正有效的安全规则,应该是一个螺旋式上升的发展过程。因此,我们需要确保我们的安全研究议程能随着时间的推移及时做有效调整。


3.3 暂停起不到效果,或起到反效果

意见7:所谓“暂停研发”,不过就是“秘密研发”罢了

论点:

  • 图灵奖得主、Meta首席AI科学家Yann LeCun认为,暂停开发=秘密开发,这与一些签名者所希望的恰恰完全相反。[42]

  • 旨在向公众提供大规模机器学习模型、数据集和相关代码的非营利组织LAION.ai认为,公开信的提议将对透明度和安全性两个目标都不利。企业或国家参与者将秘密取得进步,同时削弱公共研究团体全面审查先进AI系统安全性的能力。[43]

  • 中国人民大学教授刘永谋认为,暂停ChatGPT研发的想法简单粗暴,作用不大(除非彻底停止和取缔LLMs,否则风险不会消失),也实现不了(肯定会有AI公司违反禁令),纯属无效的“嘴炮”。[44]

  • 果壳网友“鹫羽红莲”的猜测“有没有一种可能,呼吁大家暂停6个月的这帮人,会在这6个月里面疯狂研发和实验,干一票大的抢占高地?”收获超4000赞,反映出一定程度的代表性。[45]

安远AI观点:

  • 公开信呼吁的暂停是公开的和可验证的,并且包括所有关键参与者。

  • 我们认为,尽管这个提议雄心勃勃,但它是可操作的:1)只有少数西方大型科技公司或前沿实验室可能拥有计算资源和人才在短期内来开发更强大的模型;2)多数研究人员认为,目前模型训练的总计算量是其性能的一个好的代理指标,因此可考虑将暂停应用于超过某个阈值的训练[46];3)如果暂停设定了强有力的规范,那么这些实验室将很难防止员工对秘密研发进行举报。


意见8:模型还不够危险,类似喊“狼来了”,关键时刻暂停更有用

论点:

  • 牛津大学全球优先研究所附属研究员Leopold Aschenbrenner认为,模型实际上还并不危险。有类似喊“狼来了”的风险。6个月暂停过后,能力补偿的努力将抵消大部分的时间线放缓。关键时刻暂停更有用,可以就更强大的AI系统进行对齐研究。[47]

  • Epoch研究员Matthew Barnett认为,AI系统还没有接近构成任何生存性风险。如果人类真的离非常危险的AI只有一步之遥,那么他会同意应该暂停模型扩展。现在暂停为时过早,只是毁掉了OpenAI的领先地位。[48]

安远AI观点:

  • 如何确认当前的GPT-4级别的AI是否是非常危险的AI,以及什么是“一步之遥”,仍需通过进一步研究进行验证。

  • 微软研究院最近发表的《Sparks of AGI》论文,体现出在GPT-4上已经可以进行有用的实证安全和对齐研究。

  • 我们认为这封公开信通过现在扩大“奥弗顿之窗”[49],增加而非减少了在未来引入类似政策的机会。


意见9:不均衡的暂停可能会适得其反,暂停后的竞赛更具竞争性

论点:

  • 专栏作家Kelsey Piper认为,不均衡的暂停只影响OpenAI等少数AI实验室。如果OpenAI不能在6个月内训练GPT-5,其他AI实验室可能会利用这段时间抢着训练GPT-4大小的模型。这可能意味着,当禁令解除后OpenAI会感受到更大的压力,可能会推动比他们原先计划的更大规模的训练,使竞争更加激烈。[50]

安远AI观点:

  • 这是一种合理的担忧。更理想的政策是为所有参与者都创造成本,并避免产生潜在的不正当激励结构。如对透明度和安全性的要求。

  • 同时,这也是为什么诸如ARC Evals这样对危险能力的第三方评估如此重要。在权衡更多进步和放缓进步的相对风险,评估有助于我们理解问题的前半部分。

意见10:暂停的手段太温和,需要的是无限期和全球性的停止

论点:

  • 机器智能研究所(MIRI)的联合创始人兼研究员Eliezer Yudkowsky认为,这封信低估了事态的严重性,要求解决的问题太少了。构建一个拥有超人的AI最有可能导致的后果就是,地球上的每个人都会死去。这不是“或许可能”,而是“必然会”。[51]

  • 需要:1)新的大模型训练要无限期暂停,并在全球范围内实施,没有例外;2)关闭所有大型GPU集群,暂停所有正在训练大模型,为所有人在训练AI系统设置算力上限,并在未来几年逐渐降低这个上限,以补偿更高效的训练算法。

安远AI观点:

  • 全面停止的举措比较极端,其观点源于对于AI风险的程度和可解决性的不同认知。

  • Yudkowsky关心AGI风险超过20年时间,基于过去和目前AI安全和对齐研究的进展,认为全人类可能需要几十年的科研时间才能确保AGI的发展是可控和符合人类利益的。他的观点值得认真对待。


4 结语

这封公开信所引发的讨论,是一个好的开始。

不论对此支持与否,您还有什么建议来应对对近期和长期风险的合理担忧?

参考资料:

[1] Pause Giant AI Experiments: An Open Letter 

https://futureoflife.org/open-lettr/pause-giant-ai-experiments/

[2] FAQs about FLI’s Open Letter Calling for a Pause on Giant AI Experiments 

https://futureoflife.org/ai/faqs-about-flis-open-letter-calling-for-a-pause-on-giant-ai-experiments/

[3]关于AGI可能导致的生存性风险,可参考安远AI的《人机对齐概述》系列文章:深度学习视角的对齐问题、寻求权力的AI、早期的概念性探讨、其他风险

[4]《阿西洛马人工智能原则》;段伟文,《千名专家呼吁,能让ChatGPT研发按下暂停键吗》

[5]《新一代人工智能治理原则——发展负责任的人工智能》、《新一代人工智能伦理规范》、《中国关于加强人工智能伦理治理的立场文件》

[6] Jason Wei et al., Emergent Abilities of Large Language Models 

https://arxiv.org/abs/2206.07682

[7] 例如,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架

[8] 高文,《针对强人工智能安全风险的技术应对策略》、《强人工智能与类脑计算路线及安全对策》、《新一代人工智能发展的战略战术与安全问题》、《新一代人工智能发展的安全问题》

[9] 方滨兴,《人工智能安全》

[10] 姚期智,《人工智能能否跨越智慧的疆界?》、《人工智能面对的一些挑战》、《人工智能理论的新方向》

[11] 张钹,《做负责任的人工智能》、《纯粹数据驱动的人工智能不可靠 存在危险》

[12] 朱松纯,《关于AGI与ChatGPT,Stuart Russell与朱松纯这么看》

[13] 周志华,《关于强人工智能》、《我们需要有意识、有情感的 “强人工智能”吗?》

[14] 曾毅,《伦理治理确保人工智能稳健可持续发展》

[15] Wayne Xin Zhao et al,. A Survey of Large Language Models 

https://arxiv.org/abs/2303.18223

[16] GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses

https://openai.com/product/gpt-4

[17] OpenAI, GPT-4 Technical Report.

https://cdn.openai.com/papers/gpt-4.pdf

[18] Microsoft Research, Sparks of Artificial General Intelligence: Early experiments with GPT-4.

https://arxiv.org/pdf/2303.12712.pdf

[19] ARC's evaluations of GPT-4 and Claude. 

https://evals.alignment.org/blog/2023-03-18-update-on-recent-evals/

[20] Ethan Perez et al., Discovering Language Model Behaviors with Model-Written Evaluations.

https://arxiv.org/abs/2212.09251

[21] ChatGPT引发AI监管挑战:马斯克带头反对,意大利明确禁用,要发展还是安全?

https://m.sohu.com/a/662845211_115565/?pvid=000115_3w_a

[22] 千人联名发出“灵魂拷问”:AI狂飙,人类应该“踩刹车”还是“踩油门”?

https://mp.weixin.qq.com/s/XIwGbVm4YR7LujUZSy26iA

[23] 对《暂停巨型人工智能实验公开信》的态度:来自中国的声音

https://mp.weixin.qq.com/s/nied5kVbx372BHv_H9p0jA

[24] https://twitter.com/sama/status/1641229941131051008

[25] Anthropic, Core Views on AI Safety: When, Why, What, and How. 

https://www.anthropic.com/index/core-views-on-ai-safety

[26] DeepMind’s CEO Helped Take AI Mainstream. Now He’s Urging Caution. 

https://time.com/6246119/demis-hassabis-deepmind-interview/

[27] A misleading open letter about sci-fi AI dangers ignores the real risks 

https://aisnakeoil.substack.com/p/a-misleading-open-letter-about-sci

[28] Statement from the listed authors of Stochastic Parrots on the “AI pause” letter.

https://www.dair-institute.org/blog/letter-statement-March2023

[29] Tyna Eloundou et al., GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models.

https://arxiv.org/abs/2303.10130

[30] https://twitter.com/AndrewYNg/status/1641121451611947009

[31] 意大利要求禁用ChatGPT 人工智能安全威胁被夸大了吗?

https://www.yicai.com/news/101719089.html

[32] 刘益东,《对两种科技伦理的对比分析与研判》 

http://www.rmlt.com.cn/2022/0602/648400.shtml

[33] Microsoft lays off team that taught employees how to make AI tools responsibly.

https://www.theverge.com/2023/3/13/23638823/microsoft-ethics-society-team-responsible-ai-layoffs

[34] https://twitter.com/YiMaTweets/status/1641317167496036353

[35] GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门

https://mp.weixin.qq.com/s/ldB5oSaFkoh06K8tGbYGRw

[36] Sigal Samue,The case for slowing down AI, 此文发布于2023年3月20日,公开信发布之前。

[37] https://twitter.com/tydsh/status/1641203830124859392

[38] https://twitter.com/AndrewYNg/status/1641121774761918484

[39] Paul Berg, Asilomar 1975: DNA modification secured.

https://www.nature.com/articles/455290a

[40] https://twitter.com/GaryMarcus/status/1641949800991162368

[41] 193 countries adopt first-ever global agreement on the Ethics of Artificial Intelligence.

https://news.un.org/en/story/2021/11/1106612

[42] https://twitter.com/ylecun/status/1641214126146961410

[43] Petition for keep up the progress tempo on AI research while securing its transparency and safety.

https://laion.ai/blog/petition/

[44] 刘永谋, 暂停ChatGPT研发不是应对风险的好办法. 

https://mp.weixin.qq.com/s/wwNQX1TwBQEIHNW0l60-nw

[45] 大佬联手封印AI,号召暂停强人工智能研发.

https://mp.weixin.qq.com/s/Zi5roezJBX2WG0uomRfV9w

[46] Yonadav Shavit, What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring. 

https://arxiv.org/abs/2303.11341

[47] https://twitter.com/leopoldasch/status/1640914289254105089

[48] https://twitter.com/MatthewJBar/status/1640945247999115264

[49] 奥弗顿之窗是有关一段时间内大多数人可以接受的政策范围的一种理论,一个政策的可行性主要取决于它是否在这个范围内,而不是政策提出者的个人偏好。

[50] Is it time for a pause?.

https://www.planned-obsolescence.org/is-it-time-for-a-pause/

[51] Pausing AI Developments Isn't Enough. We Need to Shut it All Down.

https://time.com/6266923/ai-eliezer-yudkowsky-open-letter-not-enough/

继续滑动看下一个

我们已签署《暂停巨型AI实验公开信》,并希望澄清误解和深入讨论

促进公共讨论的 安远AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存